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摘要 : 【 目的】 在 LDA 模型 基础 上 融合 时 间 和 作者 特征 , 提出 动态 作者 主题 (DAT) 模 型 , 更 好 地 揭示 文本 内 容 、 


主题 和 作者 之 间 的 关系 。[ 应 用 背景 ] 从 海量 文本 中 实现 特征 抽取 和 语义 挖掘 已 经 成 为 情报 研究 人 员 的 重要 工 
作 。[ 方 法 ] 获取 NIPS 会 议论 文 作为 数据 集 并 进行 预 处 理 , 按 发 表 年 份 划分 到 每 个 时 间 片 形成 一 阶 马 尔 科 夫 链 ， 


使 用 困惑 度 确定 最 优 主题 数 ,并 在 每 个 时 间 片 内 通过 吉 布 


斯 采样 估算 作者 主题 概率 分 布 和 主题 词 项 概率 分 布 。 


【 结果 】 实验 结果 表明 ， 该 模型 将 文档 表示 为 作者 主题 概率 分 布 和 主题 词 项 概率 分 布 , 时间 维 度 上 可 观测 主题 强 


度 变化 和 作者 兴趣 变化 。[ 结论 ] DAT 模型 能 够 有 效 地 融合 文档 内 容 与 外 部 特征 ,实现 文本 挖掘 。 
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1 引 言 2 相关 工作 


在 当前 信息 环境 下 , 文本 是 最 为 主要 的 信息 表达 
方式 ， 从 海量 文本 中 实现 特征 抽取 和 语义 挖掘 已 经 成 
为 情报 研究 人 员 的 重要 工作 。 主 题 模 型 任 借 其 在 挖掘 
文本 隐 含 信息 的 有 效 性 而 赢得 广泛 关注 。 主 题 模 型 从 
文档 生成 过 程 的 角度 进行 建 模 ,通过 统计 文档 层面 的 
词 项 共 现 信息 ,抽取 出 语义 上 相近 的 主题 , 将 文档 表 
示 成 一 组 主题 ,大幅 降低 了 文档 的 特征 空间 维度 门 。 
2003 年 , Blei 等 中 提出 LDA(Latent Dirichlet Allocation) 
模型 ， 它 是 一 个 三 层 贝 叶 斯 模型 ， 将 文档 看 成 不 同 的 
主题 以 一 定 概 率 分 布 组 成 ,每 一 个 主题 看 成 不 同 的 词 
项 以 一 定 概 率 分 布 组 成 。Griffiths 等 中 认为 LDA 模型 
提取 的 主题 能 捕 提 到 数据 中 有 意义 的 结构 ， 从 而 阐明 
语义 内 容 , 并 对 LDA 模型 中 的 B 参 数 施 加 Dirichlet 先 
验 , 使 之 更 加 完整 。 

以 LDA 为 代表 的 主题 模型 关注 文本 内 容 的 语 
义 挖掘 ， 而 没有 考虑 外 部 特征 ,为 此 本 文 提出 一 种 
基于 LDA 的 改进 主题 模型 ， 融合 了 作者 和 时 间 两 个 
外 部 特征 ， 旨 在 揭示 文档 内 容 、 主 题 和 作者 之 间 的 


在 LDA 模型 之 后 ,， 越 来 越 多 的 研究 人 员 通 过 扩 
展 主题 模型 完成 文本 语义 挖掘 任务 。Blei 等 外 提出 
CTM(Correlated Topic Model) 模 型 ， 克服 了 LDA 模型 
中 不 同 主题 之 间 弱 相关 性 的 缺点 , 将 主题 之 间 的 相关 
性 用 一 个 协 方 差 矩 阵 表 示 ,， 有效 地 改进 了 主题 抽取 的 
效果 。Li 等 中 针对 CTM 只 考虑 两 个 主题 间 关系 的 不 
足 , 提出 了 PAM 模型 。 其 核心 思想 是 用 有 向 无 环 图 
(DAG) 描 述 文档 中 隐 含 主题 之 间 的 结构 ， 叶 子 节点 是 
单词 ， 非 叶子 节点 (主题 ) 可 以 看 成 是 由 所 包含 的 子 节 
点 (主题 或 词 项 ) 构 成 , 那么 主题 可 能 是 词 项 概率 分 布 ， 
也 可 能 是 ( 子 ) 主 题 概率 分 布 趾 。 PAM 模型 的 缺陷 在 于 ， 
对 主题 概率 分 布 进行 采样 的 过 程 过 于 复杂 , 不 易于 实 
现 。Rosen-Zvi 等 四 基于 LDA 提出 Author-Topic 模型 ， 
引入 文档 作者 信息 ,用 于 对 文档 内 容 和 作者 的 建 模 ， 
作者 可 表示 为 一 组 主题 的 概率 分 布 , 从 而 发 现 每 个 主 
题 下 的 知名 作者 。Wang 等 中 向 LDA 模型 中 添加 一 个 
作为 观测 值 的 时 间 随 机 变量 后 得 到 主题 随时 间 变 化 
的 主题 模型 (Topic Over Time，TOT), 认为 主题 概率 
分 布 受到 时 间 的 影响 ,而 时 间 变 量 服从 Beta 分 布 。 
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李 文 波 等 上 在 LDA 模型 基础 上 引入 文本 的 类 别 信息 ， 
提出 Labeled-LDA 模型 ,在 各 个 类 别 上 协同 计算 隐 含 
主题 的 分 配 量 ,克服 了 传统 LDA 模型 用 于 分 类 时 强 
制 分 配 隐 含 主题 的 缺陷 有 效 改 进 文本 分 类 的 性 能 。 
王 萍 加 验证 了 使 用 LDA 主题 模型 进行 文献 知识 挖掘 
的 可 行 性 ,对 文献 的 文本 信息 和 作者 信息 进行 联合 建 
模 ， 提 出 多 维度 文献 知识 挖掘 方法 。 胡 吉明 等 "基于 
动态 LDA 模型 进行 主题 演化 与 挖掘 , 在 每 个 时 间 片 
内 采用 LDA 模型 进行 主题 挖掘 ， 其 不 足 之 处 在 于 本 
质 上 还 是 对 文本 内 容 进行 挖掘 ， 缺 少 外 部 特征 。 

针对 主题 模型 仅 限 于 分 析 文 档 的 内 部 特征 而 不 考 
虑 外 部 特征 的 缺陷 , 本文 改 进 思 路 是 在 LDA 模 型 的 基 
础 上 融合 文本 内 外 部 特征 。 借 鉴 胡 吉 明 等 "将 文本 按 
时 间 划 分 的 思想 , 但 时 间 片 之 间 的 状态 依赖 关系 不 同 ， 
创新 点 是 在 主题 采样 的 过 程 中 加 入 先 验 参数 一 一 作者 
主题 概率 分 布 , 通过 作者 主题 概率 分 布 发 现 作 者 研究 


兴趣 变化 。 
3 ”基于 LDA 的 改进 主题 模型 


动态 主题 模型 (Dynamic Topic Model) 考 虑 了 时 
间 和 文本 主题 的 连续 性 , 作者 主题 模型 (Author 
Topic Model) 考 虑 了 作者 和 文本 主题 之 间 的 关系 ， 两 
者 都 是 基于 LDA 模型 引入 了 一 种 外 部 特征 。 本 文 结 
合 上 述 两 个 模型 的 优势 ， 提出 动态 作者 主题 模型 
(Dynamic Author Topice, DAT), 首先 将 文档 集 划 分 到 
不 同 的 时 间 片 内 , 在 每 个 时 间 片 内 对 子 文档 集 进行 建 
模 分 析 , 文档 中 可 观测 变量 是 作者 和 词 项 ， 每 个 作者 
都 对 应 一 个 在 主题 上 的 多 项 分 布 , 每 个 主题 都 对 应 一 
个 在 词 项 上 的 多 项 分 布 , 如 图 1 所 示 : 
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图 1 作者 主题 词 项 的 概率 分 布 示意 图 
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基于 这 个 思想 , 文档 可 表示 为 作者 主题 概率 分 布 
和 主题 词 项 概率 分 布 , 在 时 间 维 度 上 进行 观测 ,还 可 
发 现 作 者 研究 兴趣 变化 、 主 题 内 容 和 强度 变化 。 下 面 
从 模型 输入 、 基 本 假设 、 模 型 表示 和 参数 估计 这 4 个 
方面 对 DAT 模型 进行 论述 。 
3.1 ”模型 输入 和 基本 假设 

主题 模型 的 主要 输入 是 文档 集合 ，Griffiths 等 外 
将 文本 中 的 词 分 为 两 大 功能 : 一 个 是 语义 功能 ,用 于 
表示 文档 主题 ,也 就 是 特征 词 ; 另 一 个 是 语法 功能 ， 
这 些 词 的 存在 是 为 了 让 整个 句子 的 生成 过 程 看 起 来 
更 像 一 个 整体 或 者 说 更 符合 语言 规范 ， 比 如 虚词 、 代 
词 和 量词 等 .这 些 高 重复 性 的 非特 征 词 和 文档 主题 无 
关 ， 需 要 在 预 处 理 中 进行 停 用 词 (Stop Words) 去 除 。 经 
过 预 处 理 后 的 文档 集 ,， 实质 上 就 是 文档 集 的 特征 词 
序列 。 

另外 一 个 重要 的 输入 是 主题 个 数 T, 通常 工 的 大 
小 需要 在 模型 训练 前 指定 ， 而 且 存 在 一 定 的 经 验 性 ， 
确定 最 优 T 的 简单 方法 是 用 不 同 的 T 值 进行 重复 实验 ， 
也 可 采用 困惑 度 (Perplexity)n 指标 确定 最 优 主 题 数 。 

DAT 模型 包含 的 基本 假设 主要 有 : 文档 的 词 顺序 
是 可 交换 的 ; 文章 各 个 主题 之 间 不 相关 或 者 弱 相 关 ; 
作者 顺序 是 可 交换 的 ， 即 文档 中 每 个 词 均匀 地 随机 地 
由 某 个 作者 产生 ; 不 同时 间 片 的 模型 参数 满足 一 阶 马 
尔 科 夫 假 设 , 即 仅 与 前 一 时 间 片 的 模型 参数 有 关 。 
3.2 ”模型 表示 

为 了 清晰 地 阐述 DAT 模型 ， 对 本 文 所 使 用 的 符号 
进行 说 明 ， 如 表 1 所 示 : 

表 1 符号 说 明 


符号 描述 

D 文档 的 数量 

T 文档 集 所 有 主题 的 数量 
V 文档 集 所 有 词 项 的 数量 
A 文档 集 所 有 作者 的 数量 
Na 文档 d 中 特征 词 的 数量 
Aa 撰写 文档 d 的 作者 数量 
ad 撰写 文档 d 的 作者 向 量 
0、 作者 x 的 主题 概率 分 布 
中 主题 t 的 词 项 概率 分 布 
x 文档 d 中 采样 的 某 个 作者 
Zan 文档 d 中 第 n 个 单词 的 主题 分 配 
Wan 文档 d 中 第 n 个 词 项 

a 9 的 Dirichlet 先 验 参数 
B 0 的 Dirichlet 先 验 参数 


XIANDAI TUSHU QINGBAO JISHU 地 纹 


DAT 模型 的 概率 图 表示 如 图 2 所 示 , 实 线 箭 头 表 
示 变 量 之 间 的 条 件 依赖 关系 ,虚线 箭头 表示 不 同时 间 
片 内 的 参数 渐变 , 通过 参数 xc 和 B 的 渐变 构建 不 同时 间 
片 的 文档 子 集 之 间 的 状态 依赖 ,矩形 表示 重复 采样 
(生成 )， 其 右 下 角 字 母 表示 采样 次 数 , 可 观察 变量 是 
文档 的 作者 和 词 项 ,表示 为 填充 阴影 的 圆 。 该 模型 中 ， 
在 每 个 时 间 片 内 文档 子 集 D 的 产生 过 程 如 下 : 

(1) 对 于 每 个 主题 te [1, T], 采样 P$~Dirichlet(B); 

(2) 对 于 每 个 作者 xs [1, A], 采样 9,~Dirichlet(0); 

(3) 对 于 每 篇 文档 中 的 每 个 词 项 wa: 

CD a 采样 一 个 作者 xamUniform(ad); 

@) b 采样 一 个 主题 zw~Multinomial(6xan); 

@@ cc 采样 一 个 词 项 wan~Multinomial(bzdn); 

(4) 重复 步骤 (3) 的 采样 过 程 Na 次 , 生成 文档 d 的 
全 部 特征 词 ; 

(5) 重复 步 又 (4) 的 采样 过 程 D 次 , 生成 整个 文档 
子 集 。 


图 2 动态 作者 主题 模型 的 图 表示 


3.3 ”参数 估计 

对 LDA 模型 进行 参数 估计 的 方法 有 很 多 ,常用 
的 有 VB (Variational Bayesian Inference) 算 法 中 EP 
(Expectation-Propagation) 算法 "Collapsed Gibbs 
Samplingt 等 。 本 文选 择 Gibbs 抽样 方法 , 它 是 一 种 
快速 高 效 的 MCMC (Markov Chain Monte Carlo) 抽 样 
方法 , 利用 每 个 变量 的 条 件 概 率 分 布 实 现 从 联合 分 布 
中 抽样 , 通过 反复 抽样 迭代 , 得 到 参数 估计 值 。 

在 LDA 模型 中 有 两 组 待 估计 参数 : 文档 主题 概 
率 分 布 和 主题 词 项 概率 分 布 , 在 DAT 模型 中 ， 需 要 佑 
计 的 也 是 两 组 参数 : 作者 主题 概率 分 布 6 和 主题 词 项 
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概率 分 布 $。 

对 于 每 个 时 间 片 内 的 文档 子 集 , 通过 Gibbs 采样 
为 每 个 词 项 分 配 了 主题 z 和 作者 x, 利用 Dirichlet 分 布 
的 期 望 ， 推导 如 下 计算 公式 : 


(V) 
卫 可 
oa 0) 
Dn +VB 
v=1 
(t) 
6 = 2 +Q @) 
y ntD +Ta 


其 中 ，g , 表示 主题 +t 中 包含 词 项 v 的 概率 ，n() 
表示 词 项 v 分 配 到 主题 t 的 次 数 ，6,, 表示 作者 a 包含 
主题 的 概率 (a 对 + 感 兴趣 的 概率 ) ng 表示 主题 分 
配 到 作者 a 的 次 数 。 

在 典型 的 语言 建 模 应 用 中 ，Dirichlet 分 布 经 常 被 
用 来 刻画 词 项 分 布 的 不 确定 性 5 本 文中 服从 参数 
为 B 的 Dirichlet 分 布 , 9、 服从 参数 为 a 的 Dirichlet 分 布 。 
2 中 虚线 箭头 表示 相 邻 时 间 片 的 超 参 数 渐变 , 依据 
3.1 节 中 的 模型 假设 , 本文 用 u,v 分 别 刻画 a 和 B 的 渐 
变 权 重 , 定义 如 下 : 


BeuxBu G3) 
us=(Token)/(Token) 1 (4) 
QViXOu 1 (5) 
vF (Author)/(Authon). (0) 


Token 是 当前 时 间 片 内 文档 子 集 的 词 项 总 数 ， 
Author 是 当前 时 间 片 内 文档 子 集 的 作者 总 数 , 因此 当 
第 一 个 时 间 片 内 的 超 参数 取 值 确定 时 ， 其 后 的 取 值 均 
可 确定 。 

3.4 ”模型 对 比 

从 推断 方法 、 时 间 、 作 者 三 个 方面 , 对 比 4 个 扩 

展 主 题 模型 的 区 别 ， 如 表 2 所 示 : 
表 2 模型 对 比 


a 作者 ”动态 作者 主题 ”动态 作者 
| 主题 模型 主题 模型 ”演化 模型 ” 主题 模型 
Gibbs ，” 变 分 期 望 Gibbs Gibbs 
推断 方法 采样 。 最 大 化 。 采样 采样 


离散 , 一 阶 连续 , Beta 离散 , 一 阶 
马尔 科 夫 ”分布 马尔 科 夫 


是 否 包 含 作者 是  / 是 是 


如 何 处 理 时 间 / 


实验 过 程 设计 如 图 3 所 示 。 实 验 的 机 央 是 HP 


ProDesk 600 台式 电脑 ，CPU 是 Intel i5-4590 处 理 器 ， 
内 存 4GB， 系 统 是 Windows7 64bit 版 本 。 使 用 Eclipse 
开发 工具 , 用 Java 语言 编写 程序 完成 数据 抽取 、 分 词 
等 预 处 理工 作 并 实现 DAT 模型 ， 最 终 得 到 文档 集 的 主 
题词 项 概率 分 布 和 作者 主题 概率 分 布 。 


确定 最 优 
主题 数目 K 


主题 词 项 


估计 参数 
图 3 实验 过 程 


4.1 数据 集 和 文本 预 处 理 

选取 NIPS(Neural Information Processing Systems) 
会 议论 文 作为 实验 数据 。 在 Web of Science 核心 集 数 
据 库 中 ， 以 “NIPS”* 为 会 议 关 键 词 进行 检索 ,时间 范围 
是 1997-2001 年 , 得 到 758 条 记录 , 检索 结果 的 出 版 年 
份 分 布 如 图 4 所 示 , 将 每 个 年 度 的 检索 结果 集 导 出 为 
纯 文本 格式 , 得 到 原始 实验 数据 集 。 
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图 4 数据 集 的 时 间 分 布 

对 以 上 文本 数据 进行 预 处 理 , 本 文 只 对 论文 中 的 
摘要 、 出 版 年 份 、 作 者 进行 分 析 , 不 保留 其 他 特征 。 
利用 正则 表达 式 去 除 虚词 、 代 词 、 量 词 等 词 项 , 并 去 
除 词 频 低 于 3 的 词 项 , 按照 年 份 进 行 分 类 汇总 ， 得 到 
DAT 模型 的 输入 数据 集 。 
4.2 确定 主题 数 

主题 模型 中 两 个 超 参数 的 经 验 值 取 值 一 般 为 
o=50/T，B=0.0105， 对 第 一 个 时 间 片 内 的 超 参 数 取 
值 也 做 上 述 处 理 。 主 题 数 目 通常 由 用 户 输入 ,其 取 
值 对 于 模型 中 的 主题 抽取 和 拟 合 性 能 影响 较 大 ， 其 
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最 佳 值 的 确定 主要 通过 两 种 方式 : 词汇 被 选 概率 和 
困惑 度 外 。 困 惑 度 是 从 模型 泛 化 能 力 衡量 主题 模型 
对 于 新 文本 的 预测 能 力 ， 困 惑 度 越 小 表示 模型 的 泛 
化 能 力 越 强 , 产生 文档 的 性 能 越 高 ， 能 够 较为 全 面 
地 评价 模型 效果 。 本 文选 取 困 惑 度 作为 评测 指标 ， 
Blei 等 外 定义 一 个 数据 集 的 主题 模型 的 困惑 度 为 : 


服 Inp(wa |ad) 
Na 


其 中 ，w 是 文档 d 的 特征 词 向 量 , 表示 所 有 词 项 ， 
ad 是 文档 d 的 作者 向 量 , 表示 所 有 作者 。 p(wa |ag) 表 
示 在 给 定 一 组 作者 的 情况 下 生成 特征 词 向 量 的 概率 ， 
Rosen-Zvi 等 四 在 作者 主题 模型 中 给 出 了 其 推导 算式 
如 下 : 


perplexity(wd |ad) = exp 


区 肥 Ma 
p(walag)=[ dof dbp(OlD™™) pb D™™)x TT 2 p> a 


m=1| ”d isauj 


对 于 不 同 的 K 取 值 , 分 别 进行 Gibbs 抽样 ,迭代 
次 数 500， 困 惑 度 取 值 的 变化 情况 如 图 5 所 示 。 因 此 ， 
选取 的 最 优 主题 数目 是 T=50。 
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20007 T 1 
入 10 50 100 200 400 


主题 数 (Topics) 
图 5 惑 度 随 主题 数 的 变化 


4.3 ”结果 分 析 

利用 DAT 模型 ， 对 实验 数据 进行 处 理 后 得 到 作者 
主题 分 布 和 主题 词 项 分 布 , 图 6 给 出 了 1997 年 文档 集 
的 部 分 主题 的 表示 ,每 个 主题 表示 为 概率 最 大 的 前 10 
个 词 项 和 前 10 个 作者 。 

实验 结果 显示 ,主题 9 关注 “神经 学 习 算法 "方面 
的 内 容 , 相关 的 研究 人 员 有 Hinton GE, Dayan P 等 人 ; 
主题 11 关注 “模型 应 用 ”， 相 关 研 究 人 员 有 Sejnowski 
TJ，Graepel T 等 人 ; 主题 20 关注 “数据 分 类 和 识别 ” 
相关 研究 人 员 有 Singh S, Seung HS 等 人 ; 主题 29 关注 
“ 似 然 估 计 ”， 相关 研究 人 员 有 Bishop C,Koch C 等 人 。 
通过 DAT 主题 模型 对 文档 集 的 隐 含 主题 进行 抽取 , 将 
隐 含 主题 表示 为 作者 和 词 项 的 概率 分 布 。 观 测 同一 个 
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主题 在 不 同时 间 片 内 的 词 项 概率 变化 , 可 实现 主题 演 化。 从 作者 主题 分 布 中 , 可 发 现 作 者 在 各 个 时 间 片 对 
化 分 析 。 图 7 揭示 了 主题 9 在 每 个 时 间 片 内 文档 子 集 ”同一 主题 的 兴趣 强 弱 变化 -图 8 揭示 了 作者 Willams C 
的 词 项 分 布 变化 ,下 方 的 曲线 表示 主题 的 概率 强度 变 。 ”对 Topic20 的 研究 兴趣 变化 。 


0 
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neural 0.0498 approximation 0.0343 Tecognition 0.0371 training 0.0378 
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图 6 ”NIPS 数据 集 上 的 4 个 主题 


词 项 词 项 词 项 词 项 词 项 
learning 0.0992 model 0.0831 algorithm 0.1034 learning learning 0.1102 
algorithm 0.0817 learning 0.0617 results 0.0693 data model 0.0716 
neural 0.0498 algorithm 0.0608 learning 0.061 show algorithm 0.0698 
network 0.0452 neural 0.0501 set 0.0522 based .| data 0.0416 
‘weights 0.0302 data 0.0442 space 0.0512 paper 有 show 0.0327 
problem 0.0280 time 0.039 images 0.048 algorithm method 0.031 
Tesults 0.0212 based 0.0312 models 0.0221 method based 0.0182 
recognition 0.0194 System 0.0214 noise 0.0194 approach linear 0.0168 
model 0.0153 hidden 0.0211 network 0.0168 time results 0.0161 
0.3146 
0.2644 
0.2692 0228 
0.1603 
1997 1998 1999 2000 2001 
图 7 Topic9 在 不 同时 间 片 的 内 容 和 强度 变化 
0.07 » 
0:06, 0.0612 S 结 语 
9.04 0.0439 
0.031 Ss 四 
) 研 明和 二 小 x 今 十 日 全 
007 or 0.0207 从 海量 科技 文献 中 自动 挖掘 隐 含 主题 、 作 者 人 研究 
“所 : 


1997 1998 1999 2000 2001 兴趣 及 其 变化 ,是 情报 研究 的 重要 内 容 之 一 。 目 前 以 
图 8 作者 Willams C 对 Topic20 的 兴趣 变化 LDA 为 代表 的 主题 模型 对 文本 内 容 的 特征 抽取 得 到 


现代 图 书 情报 技术 


201711.01260v1 


chinaXiv 


了 广泛 应 用 , 但 是 缺少 对 多 个 外 部 特征 的 融合 分 析 。 
本 文 在 研究 动态 主题 模型 和 作者 主题 模型 的 优势 后 ， 
引入 时 间 和 作者 两 个 外 部 特征 进行 扩展 , 构造 动态 作 
者 主题 模型 ,将 文档 表示 为 作者 主题 概率 分 布 和 主题 
词 项 概率 分 布 , 并 以 NIPS 会 议 的 论文 作为 实验 数据 
集 , 通过 吉 布 斯 采样 估算 参数 ， 验 证 了 模型 的 有 效 性 。 
本 文 的 不 足 之 处 在 于 , 模型 的 隐 含 假设 是 文档 作者 服 
从 均匀 分 布 , 与 作者 的 排序 无 关 , 文档 主题 服从 多 项 分 
布 , 不 同 主题 之 间 具 备 弱 相关 性 , 这 与 实际 语 料 不 符 。 

本 文 在 以 下 两 个 方面 值得 进一步 研究 。 

(1) 通过 研究 不 同时 间 片 内 的 主题 词 项 概率 分 布 ， 
发 现 主 题 内 容 变 化 和 强度 变化 。 主 题 内 容 变 化 可 表示 
为 主题 的 词 项 概率 分 布 随 着 时 间 变 化 增 大 或 减 小 ， 带 
来 主题 语义 上 的 变迁 ; 主题 强度 变化 可 表示 为 文档 集 
中 同一 个 主题 在 不 同时 间 片 上 的 概率 大 小 , 带 来 文档 
主题 的 变迁 , 从 而 实现 主题 演化 分 析 。 

(2) 研究 作者 主题 概率 分 布 , 研究 人 员 在 不 同时 
间 片 内 对 同一 个 主题 的 关注 度 有 强 弱 之 分 , 表现 为 研 
究 兴 趣 的 变迁 ， 从 而 发 现 作 者 的 研究 兴趣 变化 。 
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An Improved Topic Model Integrating Extra-Features 


Yang Ruyi Liu Dongsu LiHui 
(School of Economics and Management, Xidian University, Xi "an 710126, China) 


Abstract: [Objective] In order to reveal the relationships between contents, topics and authors of documents, this paper 
presents the Dynamic Author Topic (DAT) model which extends LDA model. [Context] Extracting features from 
large-scale texts is an important job for informatics researchers. [Methods] Firstly, collect the NIPS conference papers 
as data set and make preprocessing with them. Then divide data set into parts by published time, which forms a 
first-order Markov-chain. Then use perplexity to ensure the number of topics. At last, use Gibbs sampling to estimate 
the author-topic and topic-words distributions in each time slice. [Results] The results of experiments show that the 
document is represented as probability distributions of topics-words and authors-topics. On the dimension of time, the 
revolution of authors and topics can be observed. [Conclusions] DAT model can integrate contents and extra-features 
efficiently and accomplish text mining. 


Keywords: LDA model DATmodel Text mining Gibbs sampling 


美国 德州 农工 大 学 图 书馆 宣布 加 入 Kuali OLE 


美国 德州 农工 大 学 图 书馆 于 近日 宣布 计划 加 入 Kuali OLE(Open Library Environment, 开放 图 书馆 环境 ) 和 Kuali 基 金 会 ， 
双方 正式 成 为 合作 伙伴 。Kuali OLE 是 一 个 企业 规模 的 、 基 于 云 计算 的 、 源 于 科研 社区 的 图 书馆 管理 系统 ， 其 建立 在 开放 标 
准 上 , 目的 是 构建 一 个 健壮 的 企业 工作 流 引擎 ,为 图 书馆 业务 流程 的 高 效 管理 提供 保障 。OLE 文 持 多 种 学 术 信息 资源 和 格式 ， 
并 且 正 在 兴建 的 过 程 中 , 由 学 术 界 和 研究 图 书馆 社区 负责 管理 和 运行 。 

“我 们 很 高 兴 加 入 Kuali OLE, 这 是 一 个 由 高 校 联盟 开发 并 且 服 务 于 高 校 的 项 目 ,” 德 州 农 工大 学 图 书馆 数字 图 书馆 倡议 
工程 负责 人 Michael Bolton 表 示 ,“ 这 种 伙伴 关系 有 助 于 我 们 以 高 效 和 有 效 的 方式 开发 专门 适应 于 研究 图 书馆 的 软件 。” 

参与 Kuali OLE 的 机 构 采 取 结 构 化 的 方法 开发 软件 ， 旨 在 取代 现 有 的 图 书馆 管理 系统 。 德 州 农 工大 学 图 书馆 的 加 入 将 会 
进一步 确保 他 们 在 早期 测试 和 开发 上 的 优势 .这 也 使 得 德州 农工 大 学 图 书馆 在 决定 该 系统 需要 解决 哪些 问题 时 有 一 定 的 话语 
权 ， 比 如 整合 图 书馆 资源 和 电子 资源 。 

“开源 的 OLE 系 统 是 德州 农工 大 学 下 一 代 图 书馆 管理 系统 的 正确 选择 ,” 德 州 农工 大 学 图 书馆 馆 长 David Carlson 说 “我 们 
淘 望 加 入 一 个 有 着 众多 其 他 研究 图 书馆 的 领导 联盟 , 为 开发 下 一 代 的 开源 软件 付出 努力 。” 

芝加哥 大 学 、 利 哈 伊 大 学 、 伦 敦 大 学 亚 非 学 院 目前 正在 使 用 Kuali OLE 系统 , 杜 克 大 学 也 计划 在 2016 年 使 用 该 系统 。 
德州 农工 大 学 计划 在 2017 年 开始 使 用 该 系统 。 

(编译 自 : http://library.tamu.edu/news/2016/01/KualiOLE_Partnership.htm!l) 
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